iT邦幫忙

2025 iThome 鐵人賽

DAY 23
1
AI & Data

動不動就要 ETL? 以Trino為例-淺談從資料倉儲到湖倉系列 第 23

Day 23 - 為什麼我改用 Iceberg (二)

  • 分享至 

  • xImage
  •  

23

效能比較

  • 比較完成本後,效能肯定也不能比 BigQuery 差到哪裡去,否則得了便宜後例行工作需花三倍時間執行豈不是得不償失。
  • 這邊筆者拿公司於 BigQuery 上執行之較複雜工作 ( 測試用查詢 ),也就是計算訂單邏輯之任務作為比較基準,測試 Trino 執行效能上的表現:
  • 首先一號參賽者當然是我們的衛冕者 BigQuery 選手,將測試用查詢語法 於 BigQuery 上執行 10 次,得到平均執行時間 33 秒的成績:

BigQuery 效能測試

  • 二號選手是不同 worker 數量的 Trino cluster,測試結果從 4 nodes 的 OOM 根本無法執行 進步到 27 nodes 的平均執行時間 78 秒的成績:

Trino 效能測試

比賽結果

最後,將 效能比較 之秒數與查詢成本綜合比較如下。

雖從成本比較 (以 BigQuery 使用資源直接對應) 來看,似乎遷移至 Lakehouse 能節省支出,但若一併納入效能考量,兩者的差距並不顯著。

那是否意味著 Lakehouse 毫無優勢可言?未必。雖然 Lakehouse 查詢效能略遜一籌,但別忘了其在儲存成本上的明顯優勢。

更重要的是,BigQuery 的效能已屬業界頂尖,對大多數企業的分析工作來說,並不需要如此極致的查詢速度。綜合權衡之下,將批次查詢轉移至 Lakehouse 架構,仍具有實質效益。

明日預告

到這裡,其實《為什麼我改用 Iceberg》系列的核心脈絡已經交代得相當清楚。接下來的《為什麼我改用 Iceberg(三)》則可以視為一篇「外傳」,專門補充前面尚未展開的兩大特色:基模演進(Schema Evolution)與增量查詢(Incremental Read)。

Know me more

My Linkedin: https://www.linkedin.com/in/benny0624/
My Medium: https://hndsmhsu.medium.com/


上一篇
Day 22 - 為什麼我改用 Iceberg (一)
下一篇
Day 24 - 為什麼我改用 Iceberg (三)
系列文
動不動就要 ETL? 以Trino為例-淺談從資料倉儲到湖倉26
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言